#!/usr/bin/python
# author dennis
# 2022年08月07日
from keras.preprocessing.text import Tokenizer

samples = {'The cat sat on the mat.', 'The dog ate my homework'}

tokenizer = Tokenizer(num_words=1000)  # 创建一个分词器（tokenizer）,设置只考虑前1000个最常见的单词
tokenizer.fit_on_texts(samples)  # 构建单词索引

sequences = tokenizer.texts_to_sequences(samples)  # 将字符串转换为整数索引组成的列表

one_hot_results = tokenizer.texts_to_matrix(samples,mode='binary')

word_index = tokenizer.word_index
print('Found %s unique tokens.'%len(word_index))